Aprendizaje por Refuerzo Fuera de Línea Basado en Modelos de Horizonte Largo Sin Conservadurismo Explícito
Aprendizaje por refuerzo offline con modelos de horizonte largo sin conservadurismo. Técnica avanzada para políticas eficientes sin restricciones.